AI Agent
a minute ago

#AI Agent
#人工智慧
#Scale AI
#Remote Labor Index
#自動化
商傳媒|責任編輯/綜合外電報導
摘要

一份由 Scale AI 與 AI安全中心共同發布的最新研究顯示,目前最先進的 AI Agent 在獨立完成數位工作任務上的成功率不到5%,凸顯其可靠性仍不足,與部分人力資源主管對其全面自動化的預期存在落差。

一份由數據標註公司 Scale AI 與 AI安全中心共同發布的最新研究指出,目前最先進的 AI Agent(人工智慧代理)在獨立完成真實世界數位工作任務方面的成功率低於 5%。這項名為 Remote Labor Index(RLI)的基準測試,旨在評估 AI Agent 是否能像人類專業工作者一樣,從頭到尾可靠地完成有償任務,並達到客戶要求的水準。

RLI 的任務來源涵蓋 Upwork 等自由工作者平台,橫跨影片剪輯、標誌與傳單設計、建築、資料分析、珠寶設計及遊戲開發等 23 個不同領域。評估人員會將 AI 生成的成果與人類產出的成果進行比較,並判斷客戶是否願意為此付費。

根據研究數據,RLI 於 2025 年底推出時,表現最佳的 AI Agent 僅能將 2.5% 的專案自動化至專業水準。截至 2026 年中旬,此成功率變化不大,仍在 5% 以下。目前排名最高的 AI Agent 為透過 CoWork 平台運作的 claude-opus-4-6,成功率約為 4.17%。研究發現,AI Agent 的低自動化率並非由於其產出品質差,而是無法可靠地完成端到端的任務。

Scale AI 資安與政策研究主管 Udari Madhushani Sehwag 指出,AI Agent 的關鍵瓶頸在於可靠性。她表示,Agent 可以完成任務中的部分環節,但大部分情況下無法獨立可靠地完成整個任務。她提到,AI Agent 仍存在三大能力缺口:理解任務簡報、完成所有組成部分,以及將這些部分組合成一個連貫的整體。Sehwag 預計 AI Agent 的能力不會快速提升,並強調這與 2025 年底以來的觀察一致。

儘管有這些限制,根據 Salesforce 對 200 位人力資源長(CHRO)的調查,有高達 89% 的受訪者相信 AI Agent 將有助於重新分配員工職責,並預期約 23% 的員工將因此技術而重新部署。然而,Sehwag 建議組織應基於現有證明來制定 AI Agent 決策,而非過度依賴對其未來能力的預測。她強調,AI Agent 應被視為「協作工具(copilot)」,協助人類更有效率地完成任務,而非取代人類來實現完全自動化。目前,AI Agent 的最佳用途仍是「增強輔助(augmentation)」,而非「自動化(automation)」,且在客戶端流程中,人類監督在每個階段都至關重要。RLI 的數據為企業在人力規劃上提供了實質的參考,幫助組織更理性地看待 AI Agent 的實際能力。